Целью любого исследования, осуществляемого в настоящее время, является использование его результатов в будущем, или, иначе говоря, прогнозирование состояния изучаемого явления. Примерами такого прогнозирования заполнены учебники всех естественнонаучных и экономических дисциплин. При этом, желая изучать явление во взаимосвязи с другими явлениями или величинами, приходится выделять некоторые из них, влияющие на изучаемое, оценивать степень и «качество» влияния, то есть характер связи между изучаемым (основным в данном исследовании) и влияющими на него величинами качественного или количественного характера.
В
дальнейшем мы «основную», изучаемую, величину будем называть зависимой переменной и обозначать
литерой y, прочие, влияющие на у, величины будем
называть независимыми переменными и
обозначать литерами
Как у, так и
, будем считать числовыми.
Различают два вида связей.
Если
значение зависимой переменной становится известным, как только известны
значения независимых переменных, говорят о связи динамической или функциональной,
поскольку в этом случае существует закон, по которому вычисляется у в
зависимости от
,
у = f(
). Примеры таких связей: закон свободного падения тела; закон
Ома; закон Бойля-Мариотта; связь между стоимостью единицы товара и ценой,
уплаченной за партию его; зависимость производительности труда и затрат
рабочего времени.
Иначе обстоит дело, когда по значениям независимых величин можно установить лишь некоторую «среднюю» тенденцию в значениях зависимой переменной. Так, например, общепонятно, что между ростом человека и его весом существует зависимость, созданы таблицы такой зависимости, учитывающие еще и пол, и возраст, однако пользоваться ими можно лишь, опять же, «в среднем». Подобного рода связи называют корреляционными (от слова correlatio - соотношение - латынью), а задачей установления математической формы корреляционной связи занимается регрессионный анализ. Зависимая переменная у при этом рассматривается как случайная величина, а независимые переменные можно прямо или косвенно контролировать. Корреляционный анализ изучает совместное распределение всех измеряемых переменных с анализом точности оценивания одних величин через другие.
В
отличие от функциональной связи в регрессионном анализе речь идет об
установлении функции регрессии
где символ
обозначает
математическое ожидание случайной величины у при заданных значениях независимых
переменных.
Здесь важно заметить следующее.
В то время как независимые переменные
контролируемы,
управляемы, а у является случайной величиной, то по данным эксперимента, в
котором
приняли вполне
конкретные значения, можно судить лишь об оценке параметра, связанного с
распределением у, оценок же, как мы уже знаем, можно построить много.
С точки зрения дальнейших применений желательно иметь оценку как можно более простого вида и которая удовлетворяла бы некоторому критерию оптимальности (подобному несмещенности, например, для оценок параметров).
Из всех элементарных функций (исключая константу) наиболее простой является линейная, этот случай мы и изучим в дальнейшем детально как наиболее прозрачный с точки зрения идейной и в то же время дающий возможность для дальнейших обобщений.
Опишем вначале математическую постановку задачи, считая, что изучается одна зависимая переменная у в присутствии одной независимой переменной х (так называемая задача парной регрессии).
Пусть зависимость между х и у имеет вид
,
где
- постоянные коэффициенты, называемые параметрами модели,
e-случайная величина с математическим ожиданием 0 и дисперсией s2 .
В этом случае уравнение регрессии превращается в уравнение прямой
.
Предположим,
что независимой переменной придали значения
, в результате чего зависимая переменная приняла значения
. В предположении линейной зависимости получаем n равенств
,
где
- независимы и распределены так же, как e.
Требуется
по значениям пар (
) оценить неизвестные
.
Как
мы уже знаем, каждая задача оценивания связана с некоторым критерием качества.
В излагаемой нами теории таким критерием является критерий наименьших
квадратов: ![]()
Запишем
эту сумму иначе, так, чтобы была видна зависимость от
:
.
Теперь окончательно приходим к следующей задаче:
отыскать такие
значения неизвестных параметров
, чтобы функция

приняла наименьшее значение.
Метод решения этой задачи известен из курса высшей математики.
Находим частные производные функции Q и приравниваем их к нулю, в результате чего приходим к системе линейных уравнений

После очевидных преобразований получаем систему

Обозначим выборочные средние
,
, ![]()
В этих обозначениях после деления каждого уравнения системы на n она примет вид

а ее решение (искомые оценки коэффициентов уравнения регрессии) будет таким

Если
ввести еще обозначение
и преобразовать
выражение для
:
,
то оценка функции регрессии примет вид
.
Пример 29.1. Агент по продаже домов изучает зависимость между ценой дома у (в $ 1000) и общей его площадью х (в сотнях квадратных футов). С этой целью он произвел выборку из 15 домов и зафиксировал такие результаты:
Таблица 29.1
|
i |
xi |
yi |
i |
xi |
yi |
|
1 |
20.0 |
89.5 |
9 |
24.3 |
119.9 |
|
2 |
14.8 |
79.9 |
10 |
20.2 |
87.6 |
|
3 |
20.5 |
83.1 |
11 |
22.0 |
112.6 |
|
4 |
12.5 |
56.9 |
12 |
19.0 |
120.8 |
|
5 |
18.0 |
66.6 |
13 |
12.3 |
78.5 |
|
6 |
14.3 |
82.5 |
14 |
14.0 |
74.3 |
|
7 |
27.5 |
126.3 |
15 |
16.7 |
74.8 |
|
8 |
16.5 |
79.3 |
|
|
|
Нанеся
пары (
) на координатную плоскость, он получает так называемое корреляционное облако, вид которого
позволяет предположить, что линейная зависимость между переменными не лишена
оснований.

Рис. 29.1
Приняв эту гипотезу, он вычисляет
![]()
а затем по полученным выше формулам оценки
.
Теперь прямая регрессии имеет уравнение
.
Ее график нанесем на корреляционное поле (рис. 29.2)

Рис. 29.2
u
Можно
показать, что оценки
и
коэффициентов
и
являются несмещенными независимо от того, как распределены
случайные «добавки»
.
Для
получения более точных сведений о свойствах оценок предположим, что
распределены нормально
с указанными ранее параметрами, причем следует различать случаи, когда s2
известно или нет.
Если s2 известно, то доказывается, что оценки распределены нормально, а их дисперсии равны

и
.
Обладая
указанными сведениями, можно строить доверительные интервалы для
и
, а также производить проверку гипотез относительно их
значений.
Пример 30.1 (продолжение примера 29.1). Допустим, что s2 известно и равно 169.
В этом предположении имеем
,
,
а 95%-е доверительные интервалы будут таковы:
![]()
и
,
где
(см. таблицу прил. 1).
То есть
![]()
и
.
Проверим гипотезу Но: а1=0 (она означает, что между х и у нет линейной связи) против альтернативы Н1 : а1¹0, при размере критерия a=0,05.
В
этом случае критическая область представляет собой внешность интервала (
). Поскольку экспериментальное значение
= 3,88 выходит за его границу, нулевая (Но) гипотеза
отвергается. u
Сделаем
еще одно важное замечание относительно дисперсии
.
Желая сделать оценку коэффициента а1
(называемого коэффициентом регрессии)
как можно точней, следует сделать ее дисперсию как можно меньше. Последнее
ввиду равенства
![]()
означает, что значения независимой
переменной следует выбирать на границах интервала ее изменения. То есть, если
хотим произвести 4 наблюдения, то два из них следует произвести при х=х\,
и два при х=х\\, где [х\ ,х\\ ] - отрезок
допустимых значений контролируемой переменной.
Полученная по методу наименьших квадратов оценка линии прямой регрессии является наилучшей, однако это вовсе не означает, что в действительности связь между х и у линейна. Судить о качестве оценивания можно по величине
,
представляющей собой наименьшее значение функции Q. Обозначение RSS является стандартным в компьютерных программах (например, в пакете Microsoft Excel - SSresid) и образовано начальными литерами выражения residual sum squares - остаточная сумма квадратов (разностей между настоящими значениями уi и значениями зависимой переменной, если бы регрессия была точной).
Доказывается,
что частное
является несмещенной
оценкой s2
.
Найдем выражение для RSS, удобное для вычислений:
![]()

где
.
Пример 31.1 (продолжение примера 29.1). Считая теперь неизвестным, s2 , вычислим его оценку.
Имеем
по данным примера
. Наконец, обозначив S2 оценку для s2 получаем:
u
Если
считать модель
верной, то D[y(x)] = s2
, и оценка для s2
, построенная выше, дает возможность судить о «качестве» модели, сравнивая S2 со средним
.
При
неизвестном s2
дисперсии оценок
и
заменяются их оценками:
·
оценка дисперсии
,
·
оценка дисперсии
.
Указанные оценки дисперсий можно использовать для построения доверительных интервалов и проверки гипотез относительно параметров модели, следует лишь при этом опираться не на нормальное распределение, а на распределение Стьюдента с числом степеней свободы n-2.
Так, если a » 0, то доверительные интервалы будут иметь вид
· для ао:

· для а1:

где
- процентная точка распределения Стьюдента с числом степей
свободы n-2.
Пример 32.1 (продолжение примера 29.1). Построим доверительные интервалы уровня
доверия 0,95 для параметров
и
, считая s2 неизвестным и заменив его оценкой S2=168,91.
В
этом случае t(13;
0.975) = 2,16 и доверительный интервал для
будет таким:
· (-13,67; 50,35),
а для
:
· (2,17; 5,59).
Как видим, оба интервала расширились, что объясняется уменьшением объема информации об условиях эксперимента. u
Проверка гипотезы Но: а1 = 0 против альтернативы Н1 : а1¹0 основывается на статистике

при этом критическая область имеет вид
![]()
Пример 32.2 (продолжение примера 29.1). Проверим гипотезу Но: а1=0 против альтернативы Н1 : а1¹0, при размере критерия a=0,05 в нашей задаче об агенте по продаже недвижимости.
Все необходимые вычисления уже нами сделаны, остается лишь найти значение статистики t :
·
.
Поскольку 4,91 больше 2,16 , нулевая гипотеза отвергается. u
Уравнение регрессии может быть использовано с двух точек зрения:
· как отражение уже наблюдавшегося явления и
· как способ предсказания его будущего.
Ниже мы остановимся на втором аспекте.
Желая предсказать индивидуальное значение у при данном значении х, следует исходить из того, что оценка среднеквадратического отклонения у при данном х имеет вид

что приводит к интервалу предсказания уровня a вида

где
.
Если же нас интересует предсказание не частного значения у, а всего лишь среднего его значения (имея в виду, что речь идет об условном среднем у при данном х), то соответствующая оценка среднеквадратического отклонения М(у/x) имеет вид

а соответствующий доверительный интервал уровня a будет таким:

Как видим, второй доверительный интервал уже первого, что и понятно: в первом случае речь идет о частном значении признака у, а во втором - лишь о его среднем значении.
Пример 33.1 (окончание примера 29.1). Пусть агент желает предсказать цену дома общей площадью 20 сотен квадратных футов.
Используя полученное уравнение регрессии
,
он находит, что
(тыс. долл.). Однако, это всего лишь оценка, которая без
указания на возможные колебания цены мало о чем говорит.
Найдем интервал предсказания уровня 0,95:

или (66,792; 125,116).
Если агента интересует предсказание среднего значения цены большой совокупности домов с общей площадью 2000 квадратных футов, он воспользуется доверительным интервалом (с тем же уровнем доверия):

или (88,056; 103,852).
Все сказанное выше хорошо видно на такой диаграмме (см. рис. 33.1)

Рис. 33.1
u
До сих пор мы занимались вопросом установления формы линейной зависимости между двумя признаками. Построенный критерий проверки гипотезы о равенстве нулю коэффициента регрессии а1 дает возможность принять либо отвергнуть ее. В случае отклонения мы все же не можем сказать, насколько хороша выбранная линейная модель и оправдана ли она вообще. В настоящем параграфе мы приведем одну характеристику линейной связи между двумя случайными величинами.
Рассмотрим
случайный вектор (x,h) и
вычислим
, где а - числовой
параметр:

Видим, что f(a) есть квадратный трехчлен относительно а, принимающий только неотрицательные значения, так что его дискриминант неположителен, то есть
![]()
или
![]()
или, наконец,
.
Число
![]()
называют коэффициентом корреляции между x и h.
Отметим следующие его свойства:
1.
;
2. Если x и h независимы, то r=0.
В самом деле,
ввиду независимости имеем равенство
и r=0.
3. r = 1 тогда и только тогда, когда между x и h существует линейная зависимость.
В
самом деле, если r
=
1, то дискриминант трехчлена f(a) равен нулю, и существует
единственный корень уравнения f(a) = 0, обозначим его ао. Тогда
, выражение под знаком математического ожидания равно нулю,
то есть
,
или
.
Обратно, если h линейно выражается через x:
![]()
то ![]()
Третье свойство коэффициента корреляции r дает возможность судить о качестве линейной модели регрессии.
Имея
статистическую выборку
значений случайного вектора, вместо коэффициента корреляции
используют его оценку

где ![]()
,
.
Выборочный коэффициент корреляции r имеет свойства 1,3 коэффициента r, что позволяет использовать его как меру линейной связи между х и у.
Пример 34.1 По данным примера об агенте по продаже недвижимости (пример 29.1) находим
![]()
Как видим, значение r достаточно близко к единице, и выбор линейной модели оправдан. u
Определение 35.1. Коэффициентом детерминации называется
квадрат коэффициента корреляции,
.
В статистических задачах употребляется выборочный коэффициент детерминации

С помощью простых преобразований эту формулу можно привести к эквивалентному виду:

Для
объяснения последнего выражения заметим, что отклонение
от
можно представить в
виде
![]()
Графическая иллюстрация последнего равенства видна на рис. 35.1

Рис. 35.1
Разность
образуется в
зависимости от разности
, то есть вариация выходной переменной обуславливается
входной, регулируемой переменной.
Вторая
часть разности
есть разность между
и его оценкой,
. Эта разность есть ошибка модели, в нее входит влияние
неучтенных факторов (в примере с агентом по торговле недвижимостью это могут
быть: местоположение жилья, природные факторы, количество ванных комнат и
спален в доме и т.п.).
Суммированием получаем следующее равенство:
![]()
или, после перехода к средним,
![]()
Учитывая равенство
![]()
получаем для r2 другое выражение:

то есть коэффициент детерминации измеряет ту часть вариации выходной переменной, которая вызывается изменением входной переменной.
Пример 35.1 По данным примера об агенте по продаже недвижимости (пример 29.1) получен r = 0,805 , то есть r2 =0,648.
Это означает, что 64,8% изменчивости цены объясняется изменением общей площади жилья. Остаток - 35,2% изменчивости - объясняется неучтенными факторами.
Итак, общая площадь жилья есть превалирующий фактор в образовании его цены. u
В случае, когда коэффициент детерминации мал (степень этого определяется самим исследователем) возникает вопрос об улучшении качества модели за счет введения новых регулируемых переменных, приходя к линейной модели вида
![]()
где
- входные переменные, либо за счет усложнения модели, делая
ее квадратичной, логарифмической, показательной, то есть выбирая ее в виде
![]()
либо
![]()
либо
![]()
и т.д.
Отыскание
неизвестных параметров
производится с использованием метода наименьших квадратов,
однако детальное изложение этих вопросов выходит за рамки настоящего курса.